2022 foi o ano dos geradores de imagem IA. Recentemente, esses sistemas de aprendizado de máquina foram ajustados e refinados até encontrar sua atual popularidade com o usuário comum da Internet. Esses geradores de imagens (DALL-E e Midjourney indiscutivelmente os mais populares) geram imagens a partir de texto, por exemplo, permitindo que as pessoas criem interpretações conceituais das arquiteturas do futuro, presente e passado. Mas, como somos parte de um cenário digital repleto de preconceitos humanos, navegar nesses geradores de imagens requer uma reflexão cuidadosa.
O Midjourney é uma ferramenta de inteligência artificial particularmente interessante, popular entre artistas e designers por suas “imagens imaginativas” semelhantes a pinturas, que são criadas a partir de texto muitas vezes mínimos. Mas os resultados obtidos usando essa ferramenta também levantam questões complicadas sobre a criação e o design de imagens, questões trazidas à tona ao usar sugestões como “arquitetura africana” para produzir imagens.
O termo “arquitetura africana” é bastante controverso, visto que trata-se de um continente de nações com modos distintos de prática arquitetônica. São muitos os debates, e eles continuam ocorrendo, sobre a utilidade de certos rótulos geográficos, como “África subsaariana”, e sobre o enquadramento prejudicial do continente africano como um país singular.
Ao mesmo tempo, a história do colonialismo europeu no continente africano levou a blocos de nações que compartilham infraestruturas coloniais e pós-coloniais semelhantes, às vezes agrupando os países sob uma categorização comum, como os paralelos encontrados nas estruturas modernistas tropicais coloniais e nas da era da independência em Gana e na Nigéria.
No Midjourney, digitar o prompt “arquitetura africana” produziu imagens com formas semelhantes a cabanas, encobertas pelo que parecem ser telhados de palha em um ambiente aparentemente rural. O prompt “arquitetura vernacular na África” produziu imagens parecidas, edifícios semelhantes a cabanas com acácias ao fundo e terra marrom-avermelhada em primeiro plano. Essas formas são evidentemente comuns em todo o continente - desde a arquitetura tradicional de Sukuma, encontrada no Museu Bujora na cidade tanzaniana de Mwanza, até as cabanas rondavel encontradas no sul da África. Mas, apesar desses textos com sugestões genéricas, há uma clara falta de diversidade nos tipos de imagens criadas, negligenciando formas como os edifícios de terra com telhado plano encontrados na província marroquina de Ouarzazate, ou mesmo a arquitetura urbana extremamente diversificada das metrópoles africanas.
A geração de imagens desses tipos, com essas solicitações específicas, reflete questões mais amplas sobre como o continente africano é visto online – desde a falta de acesso a conteúdo em idiomas africanos até a natureza persistente de narrativas reducionistas sobre o continente africano na web. As nuances nos modelos das produções de “arquitetura africana” feitas no gerador de imagens não são visualmente aparentes. Para efeito de comparação, o texto “Arquitetura Europeia” retratou o que parecem ser grandes paisagens urbanas em Bruxelas ou Paris. No entanto, também há falta de variedade, pois o modelo evita edifícios mais modernistas e retroalimenta formas arquitetônicas que se encaixam nos moldes do neoclassicismo.
Os algoritmos geradores de arte de IA geralmente funcionam desenhando em grandes bancos de imagens de um assunto específico, treinando seus modelos de IA. No Midjourney, conjuntos de dados públicos são usados para produzir os resultados gerados por texto e, naturalmente, os preconceitos presentes nas imagens disponíveis publicamente - e como elas são classificadas - se infiltraram na arte gerada por modelos treinados por imagens.
As imagens de “arquitetura africana” e “arquitetura vernacular na África” compostas pela IA provavelmente são o resultado de legendas super simplificadas de imagens de arquitetura africana online, sem mencionar como os resultados visuais de “arquitetura africana” ainda podem ser muito superficiais quando alguém insere esse texto em um mecanismo de pesquisa online.
Existe, é claro, a opção de inserir prompts de texto mais específicos na IA, em vez de gerais, abrangendo rótulos como “arquitetura africana” ou “arquitetura europeia”. Digitando “arquitetura de Nairóbi na década de 2050”, por exemplo, obtêm-se imagens de avenidas ladeadas por arranha-céus na capital queniana intercaladas com a vegetação do Parque Uhuru – com formas nebulosas que lembram as Torres da Teleposta e a Times Tower ao fundo. Mas usar textos mais precisos ainda significa que as imagens feitas a partir de textos mais abrangentes na veia da “arquitetura africana” sofrem de representações supergeneralizadas – reforçando um cenário que repete a problemática redução da ideia visual da arquitetura africana.
Muito se fala sobre que tipo de conhecimento é dominante no aprendizado de máquina e quantos algoritmos não representam com precisão o contexto global em que vivemos. E como designers, artistas e amadores - ainda durante os primeiros dias dos geradores de imagens IA - continuam explorando e testando conceitos criativos por meio de programas, é útil considerar o quanto essas imagens podem acabar reforçando as estereótipos que fariam bem ao mundo se não existissem mais.